查看原文
其他

Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型

于佳慧 段宏亮 智药邦 2022-06-15

今天给大家介绍的是NATURE COMMUNICATIONS上有关数据增强的文章"State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis"

我们使用化学反应的类文本表示法(SMILES)和自然语言处理(NLP)的神经网络Transformer架构,研究了不同的训练场景对预测化学化合物的(逆)合成的影响。研究表明,数据增强是一种用于图像处理的强大方法,它消除了神经网络的数据记忆效应,并提高了其预测新序列的性能。
当同时对输入数据和目标数据进行增强时,可以观察到这种效果。在USPTO-50k测试数据集中,通过结合文本SMILES增强和束搜索算法,反应最大片段预测(从而确定经典逆向合成的主变换)的top-5准确率为84.8%。同样的方法用在预测USPTO-MIT测试集上表现更佳。在混合数据集上该模型top-1的准确率可达到90.6%,top-5的准确率 96.1%;在USPTO-MIT分离集上top-5的准确率可达到97%。并且,预测USPTO-full数据集一步逆合成反应的准确率也得到了很好的提升。经常出现的SMILES与预测结果有良好的相关性,可以作为反应预测质量的衡量指标。 

1.研究背景


逆合成法,是指从反应产物中推导出反应物的方法。即在设计合成路线时,由产物逐步逆推到原料。找到化学碎片的组合顺序以创造最终产品是逆向合成的任务。 
Corey等人开发的有机合成逻辑成功推动了旨在找到分子合成方法的计算机程序的发展。第一个逆向合成程序LHASA2采用了基于模板的方法:一个精心策划的已知转化数据库中的每一个模板(规则,合成)被依次应用于目标分子,然后根据一个具体的策略选择试剂组;相应的,试剂也被进行同样的分解,直到找到一组商业上可用的化合物。逆向合成总是有多条路线(即逆向合成树),以不同的起始材料结束。因此,一个实用的逆向合成算法不仅要解决规则的获取和选择问题,还要有能力有效地浏览逆向合成树,将不同的策略考虑进去。这些任务与人工智能策略直接相关。  
由于维护模板数据库比较困难,因此大多数依赖模板的项目,包括LHASA,并没有成为广泛使用的工具。不过,Synthia™程序(以前是CHEMATICA)也许是唯一的主要例外,这是一个成功的商业产品。
在Synthia™程序中,规则自动从原子映射的反应示例中提取。然而,自动规则没有考虑到分子中其他未定义的可能的反应中心。应用这种转换可能导致分子不能像预期的那样反应。提取这些规则的另一种方法是应用数据驱动的深度学习技术,该技术与机器学习方法相对应,即在原始数据上训练算法。训练结束后,网络通过其参数包含了相应输入的所有隐性编码的特征(规则)。对反应预测结果和逆合成的研究表明符号方法的可行性,其中反应被写成SMILES字符串,就像机器翻译一样。生成物用“source”表示,而反应物用“target”表示。 分子的SMILES表示方式是模棱两可的(虽然存在标准化过程),但已有研究证明,在训练和推理过程中使用一批随机(扩增)SMILES可以提高模型精度。作者仔细研究了各种增强机制,并表明在不同温度下,与标准束搜索(beam search,机器学习中常用到的一种搜索算法)推断和模型的评估相比,增强会有更好的性能。 作者研究的内容是预测单步逆合成,在更复杂的数据增强策略中,通过减少神经网络的过拟合,提高其准确性,从而在直接合成和逆合成方面都取得了最佳表现。训练模型的数据越复杂,就越能预测新的数据此外,作者引入了一种新的测量MaxFrag精度的方法来预测最大片段(从而确定经典逆合成的主要变换)。

2.数据


2.1反应合成的数据从USPTO数据库中筛选出5万条反应,分为10种反应类型。采用Liu 等提出的划分方式,按8:1:1将其分为40000:5000:5000,分别用于训练集、验证集和测试集。作者把训练集和验证集放在一个文件夹中。5000测试集仅在模型训练完成后测试,模型开发的任何阶段都不再使用。以类似的方式,将USPTO-MIT数据集的训练集和验证集进行反应预测。同时还开发了一个USPTO-full数据集模型。2.2 训练数据集的扩增描述xN:N=1,数据集包含反应物/试剂和产物的标准SMILES。N>1,除了一个规范的SMILES之外,还包含(N-1)个相同反应的实例,这些实例是扩增产物的SMILES(输入数据)。反应物和反应物的SMILES是标准的。
xNR:产物为标准SMILES,对于反应物/试剂,只选择了一个可能的扩增SMILES。xNF:每个反应的第一个实例都包含标准的SMILES,而其他(N-1)个实例则针对输入(产物)和输出(反应物和试剂)数据进行了扩增。输出数据中SMILES的顺序没有改变。xNS:与xNF相同,但反应物/试剂中SMILES的顺序被打乱。xNM:与xNS相同,但也包含相同数量的逆(正向)反应,正向反应以“.”开头以区别于逆反应。

3 性能分析


3.1 Top-1性能分析
对于使用1个或2个随机SMILES的扩增,反应物扩增的模型(xN)和完整的反应扩增的模型(xNF)的top-1预测性能相似。更大数量的扩增与xNF集模型训练系统比xN集表现得更好(图1)。当训练集为x80F,测试集为x20时训练模型时得到最佳精度52.3%。
图1:不同增强次数(x轴显示)开发的模型,以及应用于测试集和训练集的不同增强场景(红色:仅产品增强;青色:全反应增强)
3.2 Top-5性能分析
具有较高top-n分数的模型确实暗示了其他可能的反应。对于每一次扩增,top-5的性能通常会随着扩增序列的数量而增加。对于仅使用4-5个增量的训练集,在不同场景中计算最高的top-5值是一致的(图2)。使用x5M训练集增量的混合数据集计算最高的准确率为78.9%。这个数字比使用x5S训练集计算的准确率大约高1%(图2)。
图2:使用不同训练集增强方式开发的Transfromer模型对x20测试集进行预测的Top-5性能

4. 模型预测准确率


4.1 USPTO-50k模型研究中作者设置N=100,用x5M训练集开发的模型,该模型在top-5性能最高,并对其进行400次迭代(总共500次)。当beam=5时,这种训练将top-1的准确率提高到了53.3%, top-5提高到了79.4%(表1)。在此设置下,模型对top-1和top-5预测的准确率分别达到了53.6%和80.8%。
4.2 预测的准确性对于一些没有使用增强序列或波束搜索位置的反应预测,大多数预测序列是相同的,而对于其他的反应,Transfromer尽可能生成多的不同的SMILES反应物。尽管波束生成过程保证了每个预测都有完全相同的字符序列,但在许多情况下,Transfromer生成了多个相同SMILES的非标准实例。因此,最频繁出现的SMILES的频率可以表明Transfromer在预测中的置信度。图3显示了频率与预测的准确性有很好地相关性,USPTO-MIT和USPTO-full中也观察到了相同的相关性,可以作为化学家的评分标准。
图3:MaxFrag top-1逆合成准确率
4.3 MaxFrag的准确率
SMILES逆合成的预测是对反应物的准确预测。然而,用不同的反应物进行相同的反应可以得到相似的产率。一般来说,数据库不包含生成给定产物的所有可能的反应条件。因此,预测主要的(最大的)反应物可以被认为是更相关的逆合成预测。化学家通常通过将目标分子分解成碎片来写逆合成。这一经典的步骤只关注于主要化合物的转化,是获得高效逆合成路线所需的最少信息,同时需要进行所有反应(图4)。反应条件的选择可以作为后续任务。这就是为什么决定考虑让最大的反应物作为模型性能的一个新的衡量标准,即“最大片段”(MaxFrag)的预测准确率。在top-5反应预测中,MaxFrag为85.4%(表2)。MaxFrag对于估计系统自动推断正确反应类别的能力很重要。这种策略与明确提供反应类别信息作为模型的输入是正交的。将反应类别作为先验信息添加到测试中就相当于得到了提示,减少了提出替代可行反应的机会。所以,使用MaxFrag比将反应类别作为先验信息更准确、更合乎逻辑。
图4:西咪替丁逆合成的经典代表
4.8 与其他模型比较AT(augmented transformer)在预测更有挑战性的混合数据时提供了最高的性能增益(表4)。由于模型是用随机打乱的增强数据训练的,它能够很好地泛化,并为新的混合数据提供了很好的预测。为了与以前的研究进行更充分的比较,还开发了一个基于完全相同的400k训练数据的模型。使用较小的数据集将Top-1性能略微提高到90.6%,但将Top-5性能降低到96.1%。直接合成的改进看起来很小,只有几个百分点。与其他文献中报道的单一模型相比,直接合成的模型性能从88.6% 提高到90.6 %(Top-1),从94.2%提高到96.1%(Top-5)。如果考虑到可以100%预测直接合成,这是一个显著的性能提高,因为AT将两组的相对误差分别降低了15%和30%。在现实中增大实验精度和进一步减小误差是一个巨大的挑战。

5. 结论

这项研究表明,通过初始正则数据训练模型学习相同反应的不同表征,能消除记忆的影响,提高模型的泛化性能。图像识别功能已经成功地应用于几个化学问题,包括反应预测,但仅限于输入数据。
这篇文章首次表明,在目标数据上应用扩增技术可以显著提高反应预测的质量。还首次表明,预测的SMILES频率可以作为(逆)合成预测的置信度,并可以定量估计top-n预测结果中最可能的反应。评价反应预测的质量是至关重要的,因为它有助于更好地确定多步逆合成的优先级。所开发的方法也是使用独特的增强技术,目前GCNs无法使用,它直接与图形操作。预测的估计精度有助于区分难以预测的反应和错误的反应数据,这对清理反应数据和进一步提高模型质量具有重要意义。同时还介绍了一个新的MaxFrag测量方法,经典的逆合成精度,作者认为它更好地反映了逆合成分析的要求。
参考资料Tetko, I.V., Karpov, P., Van Deursen, R. et al. State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis. Nat Commun 11, 5575 (2020). https://doi.org/10.1038/s41467-020-19266-y

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向





历史文章推荐    


浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
浙工大智能制药研究院院长段宏亮|AI制药方兴未艾,未来可期
CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存